Fusion de paramètres pour une classification automatique parole/musique robuste. Séparation parole/musique dans les fichiers a
نویسندگان
چکیده
RÉSUMÉ. Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les composantes parole et musique. Trois nouveaux paramètres sont extraits : la modulation de l’entropie, la durée des segments (issue d’une segmentation automatique) et le nombre de ces segments par seconde. Les informations issues de ces trois paramètres sont ensuite fusionnées avec celle issue de la modulation de l’énergie à 4 Hz. Une première expérience, effectuée sur un corpus de parole lue et de diverses sortes de musique, permet de montrer l’intérêt de chacun des paramètres par sa distribution. Ensuite, un deuxième corpus est utilisé afin de vérifier la robustesse des paramètres et du système de fusion proposé. Cette expérience, réalisée sur un corpus radiophonique, donne un taux d’identification correcte supérieur à 90 %.
منابع مشابه
LaBRI.Modélisation du son, de la parole et de la musique
Le Laboratoire Bordelais de recherche en informatique (LaBRI) développe un partenariat avec le Studio de Création et de recherche en informatique et musique électroacoustique (SCRIME) (http://scrime.labri.fr), dont l’objectif est de créer des outils pour la création artistique. Les recherches s’effectuent dans le thème « Modélisation du Son, de la Musique et de la Parole » (http://www.labri.fr/...
متن کاملAmélioration des Performances des Systèmes Automatiques de Reconnaissance de la Parole pour la Parole Non Native
Résumé Dans cet article nous décrivons une approche pour la reconnaissance automatique de la parole (RAP) non native. Nous proposons deux méthodes pour l’adaptation d’un système de reconnaissance automatique de la parole (SRAP) existant. La première se base sur la modification des modèles acoustiques par l’intègration des modèles de la langue maternelle (LM). Les phonèmes de la langue parlée (L...
متن کاملComparaison de mesures perceptives et automatiques de l'intelligibilité. Application à de la parole simulant la presbyacousie
RÉSUMÉ. Cet article présente une étude comparative entre mesures perceptives et mesures automatiques de l’intelligibilité de la parole sur de la parole dégradée par une simulation de la presbyacousie. L’objectif est de répondre à la question : peut-on se rapprocher d’une mesure perceptive humaine en utilisant un système de reconnaissance automatique de la parole ? Pour ce faire, un corpus de pa...
متن کاملVers une annotation automatique de corpus audio pour la synthèse de parole (Towards Fully Automatic Annotation of Audio Books for Text-To-Speech (TTS) Synthesis) [in French]
RÉSUMÉ La construction de corpus de parole est une étape cruciale pour tout système de synthèse de la parole à partir du texte. L’usage de modèles statistiques nécessite aujourd’hui l’utilisation de corpus de très grande taille qui doivent être enregistrés, transcrits, annotés et segmentés afin d’être exploitables. La variété des corpus nécessaire aux applications actuelles (contenu, style, etc...
متن کاملEigenvoices: A compact representation of speakers in model space
Titre francais: Voix propres: Vers une représentation compacte des locuteurs dans l'espace des modèles Traduction du titre des figures: Figure 1: Schéma bloc d'un système de reconnaissance de la parole Figure 2: Schéma général du système de voix propres 1 Summary: In this article, we present a new approach to modeling speaker-dependent systems. The approach was inspired by the eigenfaces techni...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Technique et Science Informatiques
دوره 22 شماره
صفحات -
تاریخ انتشار 2003